<!DOCTYPE HTML>
<html>

<head>
	<link rel="bookmark"  type="image/x-icon"  href="/img/logo.jpg"/>
	<link rel="shortcut icon" href="/img/logo.jpg">
	
			    <title>
    北望你的安
    </title>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no" />
    <link rel="stylesheet" href="/css/mic_main.css" />
    <link rel="stylesheet" href="/css/dropdownMenu.css" />
    <meta name="keywords" content="北望你的安" />
    
    	<script async src="//busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js"></script>
	 
    <noscript>
        <link rel="stylesheet" href="/css/noscript.css" />
    </noscript>
    <style type="text/css">
        body:before {
          content: ' ';
          position: fixed;
          top: 0;
          background: url('/img/bg.jpg') center 0 no-repeat;
          right: 0;
          bottom: 0;
          left: 0;
          background-size: cover; 
        }
    </style>

			    
  


    <script src="/js/jquery.min.js"></script>
    <script src="/js/jquery.scrollex.min.js"></script>
    <script src="/js/jquery.scrolly.min.js"></script>
    <script src="/js/skel.min.js"></script>
    <script src="/js/util.js"></script>
    <script src="/js/main.js"></script>
	
</head>
    
		
<!-- Layouts -->



<!--  代码渲染  -->
<link rel="stylesheet" href="/css/prism_coy.css" />
<link rel="stylesheet" href="/css/typo.css" />
<!-- 文章页 -->
<body class="is-loading">
    <!-- Wrapper 外包 s-->
    <div id="wrapper" class="fade-in">
        <!-- Intro 头部显示 s -->
        <!-- Intro 头部显示 e -->
        <!-- Header 头部logo start -->
        <header id="header">
    <a href="/" class="logo">Krystalan</a>
</header>
        <!-- Nav 导航条 start -->
        <nav id="nav" class="special" >
            <ul class="menu links" >
			<!-- Homepage  主页  --> 
			<li >
	            <a href="/" rel="nofollow">主页</a>
	        </li>
			<!-- categories_name  分类   --> 
	        
	        <li class="active">
	            <a href="#s1">分类</a>
	                    <ul class="submenu">
	                        <li>
	                        <a class="category-link" href="/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/">强化学习</a></li><li><a class="category-link" href="/categories/%E6%95%B0%E5%AD%A6/">数学</a></li><li><a class="category-link" href="/categories/%E7%AE%97%E6%B3%95/">算法</a></li><li><a class="category-link" href="/categories/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/">自然语言处理</a></li><li><a class="category-link" href="/categories/%E9%9A%8F%E7%AC%94/">随笔</a>
	                    </ul>
	        </li>
	        
	        <!-- archives  归档   --> 
	        
	        
		        <!-- Pages 自定义   -->
		        
		        <li>
		            <a href="/tags/" title="标签">
		                标签
		            </a>
		        </li>
		        
		        <li>
		            <a href="/gallery/" title="相册">
		                相册
		            </a>
		        </li>
		        


            </ul>
            <!-- icons 图标   -->
			<ul class="icons">
                    
                    <li>
                        <a title="github" href="https://github.com/krystalan" target="_blank" rel="noopener">
                            <i class="icon fa fa-github"></i>
                        </a>
                    </li>
                    
                    <li>
                        <a title="500px" href="https://www.zhihu.com/people/krystalzhu-an" target="_blank" rel="noopener">
                            <i class="icon fa fa-500px"></i>
                        </a>
                    </li>
                    
			</ul>
</nav>

        <div id="main" >
            <div class ="post_page_title_img" style="height: 25rem;background-image: url(/img/16.jpg);background-position: center; background-repeat:no-repeat; background-size:cover;-moz-background-size:cover;overflow:hidden;" >
                <a href="#" style="padding: 4rem 4rem 2rem 4rem ;"><h2 >中文分词总结</h2></a>
            </div>
            <!-- Post -->
            <div class="typo" style="padding: 3rem;">
                <blockquote>
<p>分词是NLP的基础任务，将句子或段落分解为字词单位，方便后续的处理的分析。<br>相关介绍：<br><u><a href="https://zhuanlan.zhihu.com/p/86322679" target="_blank" rel="noopener">《中文分词方法和软件工具汇总笔记》</a></u><br><u><a href="https://zhuanlan.zhihu.com/p/109010084" target="_blank" rel="noopener">《中文分词从why到how，从字典到预训练》</a></u></p>
</blockquote>
<h1 id="1-基于词典匹配的分词方法"><a href="#1-基于词典匹配的分词方法" class="headerlink" title="1.基于词典匹配的分词方法"></a>1.基于词典匹配的分词方法</h1><p>基本思想是基于词典匹配，将待分词的中文文本根据一定规则切分和调整，然后跟一个充分大的词典中的词语进行匹配，匹配成功则按照词典的词分词，匹配失败通过调整或者重新选择，如此反复循环即可。<br>（1）正向最大匹配法FMM：对文本从左至右切出最长的词<br>（2）逆向最大匹配法BMM：对文本从右至左切出最长的词<br>（3）N-最短路径方法  </p>
<blockquote>
<p>相关论文：<u><a href="http://xueshu.baidu.com/usercenter/paper/show?paperid=fd23367e5f8584120084a9c5286f9ae8&site=xueshu_se" target="_blank" rel="noopener">《基于N-最短路径方法的中文词语粗分模型》</a></u></p>
</blockquote>
<p>其基本思想是根据词典找出待切分语句中所有可能的词，接着构造词语切分的有向无环图。每个词对应图中的一条边，并赋予相应权重。然后针对该图从起点到终点的所有路径中，求出长度值按照严格升序排列依次为第1，第2，…，第N的路径集合作为相应的粗分结果。<br><img src="/images/WordSegmentation/1.jpg" alt="N-最短路径分词"><br>如上图，每个节点处记录N个最短路径值，并记录相应路径上当前节点的前驱。但上图的例子中默认了每个边的长度为1，实际上也可以进行一些改进，需要用到带词频的词典。</p>
<p>（4）双向匹配分词法：从左至右、从右至左两次扫描<br>当正向和逆向切分结果相同时认为切分结果是可接收的，而当切分结果不同时可以有多种策略：<br>①选择切分后词语最少的作为输出，有点类似于最短路径和长词优先。<br>②选择单字成词少的作为输出，类似于长词优先。<br>③还可以用各种语言模型来做选择。如CRF条件随机场模型、最大熵模型、（隐）马尔科夫模型等。</p>
<p>有着速度快成本低的优点，但适应性不强，在不同领域的效果差别大，算法不灵活且对<strong>歧义</strong>和<strong>未登录词</strong>处理效果不佳。</p>
<h1 id="2-基于统计的分词方法"><a href="#2-基于统计的分词方法" class="headerlink" title="2.基于统计的分词方法"></a>2.基于统计的分词方法</h1><p>在给定大量的已经分过词的文本数据情况下，利用统计机器学习习得分词模型。常有用的方法有：HMM、CRF、MEMM、ME（最大熵模型）、N-gram、SVM。  </p>
<h2 id="2-1-序列标注（HMM、CRF、MEMM、ME、SVM）"><a href="#2-1-序列标注（HMM、CRF、MEMM、ME、SVM）" class="headerlink" title="2.1 序列标注（HMM、CRF、MEMM、ME、SVM）"></a>2.1 序列标注（HMM、CRF、MEMM、ME、SVM）</h2><blockquote>
<p>NLP有四大任务：序列标注、文本分类、文本生成、文本匹配。其中序列标注具体的任务有：分词、词性标注、命名实体识别。</p>
</blockquote>
<p>我在之前的文章<u><a href="http://wangjiaan.xyz/2020/03/09/NER/" target="_blank" rel="noopener">《命名实体识别出你的点点滴滴》</a></u>详细介绍了如何利用HMM、CRF、MEMM等统计学模型进行序列标注任务（NER向），同样也可以应用与分词任务当中。例如：  </p>
<blockquote>
<p>王 —— B<br>佳 —— M<br>安 —— E<br>于 —— S<br>2 —— B<br>0 —— M<br>1 —— M<br>6 —— E<br>年 —— S<br>加 —— B<br>入 —— E<br>苏 —— B<br>大 —— E<br>计 —— B<br>科 —— M<br>院 —— E<br>，<br>开 —— B<br>始 —— E<br>其 —— S<br>码 —— B<br>农 —— M<br>之 —— M<br>旅 —— E<br>。  </p>
</blockquote>
<p>其中B（begin）代表词首、M（middle）代表词中、E（end）代表词尾、S（single）代表单字成词。<br>除了HMM、CRF、MEMM之外，也可以使用ME和SVM做序列标注任务。</p>
<h2 id="2-2-N-gram"><a href="#2-2-N-gram" class="headerlink" title="2.2 N-gram"></a>2.2 N-gram</h2><p>N-gram作为早的语言模型，其可以用两个角度来理解，第一角度是计算当前序列（未完成的一句话）中最有可能出现的下一个word，第二个角度是计算当前已经完成的话的概率。<br>例如一元模型（uni-gram）计算一句话的概率：<br><img src="/images/WordSegmentation/2.jpg" alt="一元模型"><br>二元模型（bi-gram）：<br><img src="/images/WordSegmentation/3.jpg" alt="二元模型"><br>三元模型（tri-gram）：<br><img src="/images/WordSegmentation/4.jpg" alt="三元模型">   </p>
<p>于是我们可以根据待切分句子的每一种分词序列去计算它的概率然后取概率最大的分词序列就好了。  </p>
<h1 id="3-基于深度学习"><a href="#3-基于深度学习" class="headerlink" title="3.基于深度学习"></a>3.基于深度学习</h1><h2 id="3-1-序列标注"><a href="#3-1-序列标注" class="headerlink" title="3.1 序列标注"></a>3.1 序列标注</h2><p>没错，又是序列标注，因为序列标注也有深度学习的解法，比如用BiLSTM+CRF、CNN+BiLSTM+CRF甚至BERT+LSTM+CRF等。<br>在我之前写的文章<u><a href="http://wangjiaan.xyz/2020/03/09/NER/" target="_blank" rel="noopener">《命名实体识别出你的点点滴滴》</a></u>中也有介绍，就不重复赘述了。</p>
<h2 id="3-2-基于预训练模型-知识蒸馏"><a href="#3-2-基于预训练模型-知识蒸馏" class="headerlink" title="3.2 基于预训练模型+知识蒸馏"></a>3.2 基于预训练模型+知识蒸馏</h2><p>直接搬运第二篇相关介绍中的内容了  </p>
<blockquote>
<p>最近的一年多的时间里，BERT、ERNIE、XLNet等大型预训练席卷了NLP的绝大部分领域，在分词问题上也有显著的优越性。然而，众所周知，预训练模型太大了，过于消耗计算资源，如果要对海量的文本进行分词，哪怕用上8卡的32G Tesla V100都会显得力不从心，因此一种解决方案就是，将预训练模型中的分词知识通过知识蒸馏（Knowledge Distillation）来迁移到小模型（比如LSTM、GRU）上。近期Jieba分词器中就上线了这么一个用这种方法得到的先进分词模型（其实是个通用的词法分析模型），感兴趣的小伙伴可以自行了解一下。预训练模型和知识蒸馏的资料很多了，这里就不赘述啦。</p>
</blockquote>
<h2 id="3-3-多标准的中文分词"><a href="#3-3-多标准的中文分词" class="headerlink" title="3.3 多标准的中文分词"></a>3.3 多标准的中文分词</h2><p>马一篇paper，有空再看<br><u><a href="https://arxiv.org/abs/1906.12035" target="_blank" rel="noopener">Multi-Criteria Chinese Word Segmentation with Transformer</a></u><br><img src="/images/WordSegmentation/5.jpg" alt="多标准分词"><br>为了解决多标准分词的一项工作，来自复旦大学邱老师组，今天（4.11.2020）听报告听到的2333。</p>

            </div>

            <!-- Post Comments -->
            

        </div>
        <!-- Copyright 版权 start -->
                <div id="copyright">
            <ul>
                <li>&copy;2020 北望你的安. 版权所有</li>
            </ul>
            
                <span id="busuanzi_container_site_pv">本站总访问量<span id="busuanzi_value_site_pv"></span>次，</span>
				<span id="busuanzi_container_site_uv"> 访客数 <span id="busuanzi_value_site_uv"></span> 人. </span>
			
			<br>
			<span>友情链接：<a href='http://www.demilab.cn' target='_blank'>DEMI实验室</a>&nbsp;&nbsp;&nbsp;<a href='http://zd11024.cn/' target='_blank'>ZD</a></span>
        </div>
    </div>
</body>



 	
</html>
